部分可观察到的马尔可夫决策过程(POMDP)是适用于许多现实世界问题的框架。在这项工作中,我们提出了一种方法,通过依靠解决完全可观察的版本的策略来解决具有多模式信念的POMDP。通过deleinig,基于完全可观察到的变体的值函数的新的混合价值函数,我们可以使用相应的贪婪策略来求解POMDP本身。我们开发了讨论所需的数学框架,并引入了基于侦察盲tictactoe的任务的基准。在此基准测试中,我们表明我们的政策优于政策,而忽略了多种模式的存在。
translated by 谷歌翻译